ChatGTP“血汗工厂”之争：理性看待机器学习中的道德问题

中产财经生活 2023-12-03

Editor's Note

我写的

The following article is from 数字社会发展与研究 Author 刘远举

引言

OpenAI公司开发的ChatGPT，现在不但是业界与市场关注的热点，也已经成为一个社会学话题。ChatGPT具备复杂且生动的语言交互能力，科幻小说中的人工助理未来即将走入人们的生活。

文｜ 刘远举 上海金融与法律研究院研究员

有多少人工，就有多少智能

当下的人工智能主要基于神经网络，即利用算法模拟人类的大脑神经元网络，从而模拟人脑的机制来学习、判断、决策。神经网络需要不断通过对数据的学习，实现智能。这种学习，依赖大量的样本标注。在人工智能的学习过程中，需要不断有人“教导”AI，对数据贴标签、做记号、标颜色等，教会AI“感知”“思考”和“决策”。

这些标注当中，一部分需要专业性知识。比如在医疗AI中，标注员需要把片子中的肿瘤区域标出来，这就需要医生完成。再比如地方方言或外国文字的内容，则需要标准员掌握那门语言。但大多数标注工作是简单的，比如，让AI懂得什么是气球，标注员就需要在一张张含有气球的图片中，圈出气球的位置及气球和背景的分割线；让AI识别汽车，就需要把图中的车都标出来，画框要精确的刚好卡住车。这类AI的能力，高度依赖于这些标注，标注的数据越多，AI就越“聪明”，所以，业内俗称：有多少人工，就有多少智能。

▲ 图源Pixabay

OpenAI、谷歌、Meta和微软的人工智能成果背后，就有无数肯尼亚、肯尼亚、乌干达和印度的工人在工作。在中国，现在已有庞大的数据加工队伍，仅北京就有一百多家专门从事数据标注的公司，全国从事这项工作的人约超过千万。2020年人社部发布的16个新职业之一，就包括数据标注师。

高大上的人工智能背后，有无数人在做着简单而重复的工作，以支撑AI运行。这是一种很正常的技术发展与市场形式。比如，现在电池技术还跟不上各种设备的耗能，市场就发展出共享充电宝，电动车换电等商业模式。通过这种方式，让技术变得实用，获取利润，就能持续投入研发，加快技术的发展。现在自然语言处理方面的应用大多是人工+算法的形式，由于技术还尚有欠缺，为了保证用户体验，多用人力辅助，是合理的。

▲ 图源Pixabay

人工智能的扶贫红利

这些训练人工智能的工作有自己独特的特征。

一方面，这些工作是简单、繁琐、重复的。如果专家，程序员，这些相对稀缺的人才，都投入到这类工作中去，就如同厨艺高超的厨师，不能专注烹制美食，却花大量时间去洗碗、摘菜。

另一方面，这种工作不需要多少文化，也不需要专业能力，只需要人的基本智能——能通过背影识别人；只看到沙发上的尾巴与半个身体就知道是猫；即便被车挡住，也知道是红绿灯。这对机器来说很难，但对人来说却是轻而易举的。

这两个特征，使得数据标注师成为一个天然的适合低技能人群和相对落后地区的职业。

▲ 图源Pixabay

坐落在黄河边上的山西永和县，曾经是国家级贫困县。但就在这个小县城，却有160名蚂蚁集团人工智能项目的人工智能训练师。这当中女性员工135人，当了妈妈的，占比高达80%。她们上有老下有小，大部分人学历不高，起步阶段员工，全部为高中及以下学历。但因为这份特殊的职业，这些大山里的女性，成为了人工智能大潮的一份子。

这160个人，只是整个标注师产业扶贫功能的一部分。早在2019年8月，由蚂蚁集团、浙江蚂蚁公益基金会、阿里巴巴人工智能实验室联合中国妇基会发起，就发起“AI豆计划”数字产业孵化项目。截至2021年底，“AI豆计划”已经在陕西省清涧县等多个县、宁夏银川、贵州万山、山西朔州、贵州遵义、甘肃积石山等多个市县落地。

▲ 图源Pexels

“AI+扶贫”的公益模式，通过 AI 产业释放出的大量就业机会，在贫困地区培训相关职业人才、孵化社会企业，让贫困群众，特别是女性，实现在家门口就业脱贫，获得经济收入，提升自身地位。在这个基础上，帮助欠发达县域突破资源条件限制，一定程度实现数字化发展。目前，在吕梁山区，现已初步形成数字就业产业带。在贵州万山区，首个试点已培训出 31 名 “AI 培育师”，其中 77% 为贫困女性，90% 的人原本没有收入来源。

某种程度上，这是这些贫困地区的妈妈们所能做的最具有互联网红利、乃是AI时代红利的工作。任何新技术行业，都有红利。比如，对于一个西部山区、初中文化的25岁的男青年来说，最接近互联网红利的工作，就是当一个骑手。他获得的红利，当然比不上程序员、产品经理，但比起以往的工作却要高出一截。标注员的待遇与任务量和难度直接相关，熟练工一天能标几千张图片，月收入最高过万。山西永和县大部分年轻劳动力，月收入不超过2000元，但从事标注工作，人均月收入能达到4000元以上。而且，比快递员更好的地方在于，标注员可以不离开家乡，既能照顾家人孩子，同时又能享受到人工智能时代的红利。

贵州万山、山西永和等地，仅仅是一个起点，未来会有更多的人工智能项目，把自己的基础放在贫困地区，让更多的人获得AI红利，帮助落后地区发展。

▲ 图源Pixabay

理性看到机器学习中的道德问题

ChatGPT是一种基于自然语言处理（NLP）和机器学习的语言模型，功能主要集中在自然语言处理，特别是对话生成，它的训练数据主要是文本数据。人类并不完美，人类产生的这些文本也不完美，这就产生了一些道德问题。

据美国《时代周刊》上月中旬的报道，为了训练ChatGPT，OpenAI从2021年11月开始，OpenAI雇佣了时薪不到2美元的肯尼亚外包劳工，他们所负责的工作就是对庞大的数据库手动进行数据标注。这些工人时薪1.32-2美元，9小时阅读并标注至多20万个单词。其中大部分文字都是一些有害文字，详细描述了性虐待、谋杀、异常性行为等情况。《时代周刊》的报道中，一名参与文本标签项目的员工表示：“对我们来说，这是一种养家糊口的方式。不看有害内容就无法养家糊口。”

这种忧虑乃至同情，都是可以理解的，但也是幼稚的。人类世界并不完美，而AI要力求完美，并遵循各国法律，其回答必然需要避免引入互联网文本中的阴暗面。鉴别这些内容，对人类来说极其简单，但对AI来说，却很难，只能依靠人类标准。

▲ 图源Pexels

这些肯尼亚工人的工作，就和处理下水道堵塞的工人，解剖罪案尸体的法医，鉴别色情影视的鉴黄师，缉毒警察所作的工作是一样的，都是为了打造一个更好的世界。但不可避免的，这类职业就必须接触那些肮脏的、丑陋的事物。

从心理学角度，反复的刺激会提高阈值；熟练工则能提高效率，所以，这是总体伤害最小的办法。9小时阅读并标注至多20万个单词，并不是像读小说那样去读，而是快速扫过，就像鉴黄师看一张碟片不会需要2个小时一样。

至于工资问题，工资的水平是技能的稀缺性决定的，正如前面所说，训练AI，特别是自然语言模型，所需的人类技能并不高，那么，这个工资水平就不可能太高。一个更好的工资，比如每小时10美元，只会造成腐败与克扣。就像进入一些大型垄断企业当工人，需要花几十万买一样。但无论如何，作为新行业，这些工人肯定能得到一部分红利，其工资水平肯定是超过当地一个类似技能的岗位的水平的。

▲ 图源Pexels

实体经济离不开数字化、智能化赋能，ChatGPT乃至人工智能的发展，会改变未来工业、乃是农业的产业形态，越来越多的智能机器会取代人力。这就意味着原本的很多扶贫模式也需要更新。强令这些人从事没有实际意义的劳作，不如将其转化为数字时代、人工智能时代的“人类智慧基础”。从这个意义上，让低技能人群进入新产业，成为新形式的产业工人，是未来社会协同发展的一个可持续的方向。

扩展阅读：ChatGPT能有意识吗：关于ChatGPT的误解与夸大

END

* 所刊专家文章并不代表本中心观点。

【欢迎转载】

请注明“来源：数字社会发展与研究”。

撰文：刘远举
商务合作请添加微信：bdd666555已开过白名单的公众号，转载请遵循转载规则

热文回顾：

泽连斯基抹了一下眼泪

欢迎关注更多深度文章

往期回顾

继续滑动看下一个

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊

薅广电羊毛！100元话费实付94.6元，还有电费96.9充100元！招团长~

警察踢打校园欺凌者：当事人不愿返校，派出所拒收锦旗

疯传！广州地铁突发！警方介入

ChatGTP“血汗工厂”之争：理性看待机器学习中的道德问题

您可能也对以下帖子感兴趣

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊​

薅广电羊毛！100元话费实付94.6元，还有电费96.9充100元！招团长~

警察踢打校园欺凌者：当事人不愿返校，派出所拒收锦旗

疯传！广州地铁突发！警方介入

生成图片，分享到微信朋友圈

ChatGTP“血汗工厂”之争：理性看待机器学习中的道德问题

您可能也对以下帖子感兴趣

你手放哪呢，出生啊